人工智能将人工智能融入临床工作流程需要可靠且强大的模型。鲁棒性的主要特征是可重复性。在不评估模型重复性的情况下,给予分类性能很多,导致在实践中不可用的模型开发。在这项工作中,我们评估了在同一访问期间获得的同一患者的四种模型类型的可重复性。我们研究了三个医学图像分析任务的二进制,多级,序数和回归模型的性能:宫颈癌筛查,乳房密度估计和早产分类视网膜病变。此外,我们评估采样蒙特卡罗辍学预测在分类性能和可重复性上的测试时间的影响。利用Monte Carlo预测,为二元,多级和序数模型的所有任务的重复性显着提高,导致平均减少95%协议限额17%的分数。
translated by 谷歌翻译